Настольная книга дежурного
- Важные для продакшена новости проекта
- Важные для продакшена ссылки
- Важные контакты
- Полезные команды и их шаблоны
- Самые важные выдержки из документации
Утилиты самодиагностики
- Состояние подключений
- Состояние переключателей
- Состояние фиче-флагов
- Актуальный конфиг
- Состояние данных
RED метрики для вызовов
RED — Request, Errors, Duration
Запросы, Ошибки, Длительность
Нас интересуют внешние и внутренние RED метрики
USE метрики для ресурсов
Ресурс — физические ресурсы сервера (CPU, память, место на диске, файловые дескрипторы и т.п.)
и внутренние ресурсы приложения (открытые соединения в пуле, воркеры и т.п.), которые могут
исчерпаться
USE — Utilization, Saturation, Errors
Утилизация, Насыщение, Ошибки
- Утилизация — метрика использования ресурса, часто время использования ресурса
- Насыщение — метрика, показывающая насколько ресурса не хватает, например, размер очереди ожидания
- Ошибки — ошибки связанные с использованием ресурса
Самопочинка
Машина реагирует быстрее человека и никогда не спит
- Авторестарт сбойных экземпляров
- Авторестарт «особенных» экземпляров
- Выключение сбойных нод (кластеров, датацентров) из балансировки
- Тюнинг параметров систем под нагрузку
Может усугубить сбой или даже вызвать его
DRP
Disaster Recovery Plan
План восстановления после катастрофы
Практически план восстановления после потери всей инфраструктуры из бекапов
Отработка действий
- Wheel-of-misfortune — ролевая игра по восстановлению конкретной системы
-
Обучение на реальных сбоях — кандидат в SRE должен устранить реальный сбой,
прежде чем начать дежурить самостоятельно
- Учения на искусственных сбоях — контролируемые сбои в продакшен
DiRT
Disaster Recovery Testing
Тестирование плана восстановления после катастроф